查看原文
其他

偏要反着来?开源免费的办公利器,新时代电子包浆!

砺心 阿虚同学
2024-08-25

阿虚同学

读完需要

7分钟

速读仅需 5 分钟

前段时间偶然被一粉丝问到一个比较奇葩的问题:

他问我有没有办法能把PDF处理成扫描版?

明明大家都想尽办法希望能把PDF尽量弄清晰,文字可复制,他倒好——偏偏想反着来

但有没有这样的工具呢?

你别说,还真有!

1


   

PDF仿扫描版

1.1


  

Look Scanned

V2EX网友 @hzcer 基于 WASM 的 ImageMagick 开发了一个能将 PDF 处理后让其看起来像扫描件一样的网站:https://zh.lookscanned.io/

纯前端运行、开源免费跨平台、且无需网络即可运行,没有隐私泄露之忧(即你打开网站之后可断网继续添加文件进行处理)

当然如果你要问这个网站有什么用,可能最大的用处就是:

  • 有时候明明你有高清的文档原件,PDF加电子章对面死活不要,对方非要要求纸质版(带签名)的扫描件

  • 身边没有打印机,又懒得出门找打印店

  • 就可以直接偷懒用手机/iPad 签名 + 再利用这个网站仿真做旧骗过一些网站的审核要求啦

比如我直接手机微信上用金山文档小程序打开PDF,添加电子签名

然后放到 PDF 中合适的位置即可(电子签名相当于一个透明贴图,后期可以轻松直接使用重复添加)

你可以在在 Look Scanned 上给 PDF 添加边框,设置旋转角度、亮度、对比度、模糊、噪点、分辨率

只需要你加个边框、增加一点旋转、添加一些噪点、再让文档模糊一点点,你别说还真就像是一个扫描版 PDF 了

1.2


  

Ambitious

Ambitious 是国外一个同类型的 PDF 做旧网站,无需登录即可使用,上传图片之后直接在左边调整图片的扫描效果程度、破旧程度、分辨率、模糊度等就行了:https://ambitious.shinyapps.io/pdf-scan-look-v1/

个人觉得添加的纹理效果比 Look Scanned 那种噪点要更加真实,效果还是相当不错的

▲点击查看大图

但这个网站存在一个致命缺点就是:免费仅能体验1次,后续需要付费才能使用,同时付费价格相当离谱,甚至还是订阅制的!?

不过由于无需登录就能上传体验,并非根据账号来限制,阿虚就很好奇他是怎么判断你是否已经使用过1次了

但经过我测试,发现并不是根据浏览器缓存(清空浏览器缓存没用),也不是根据访问者网络IP(切换网络没用)——这就很奇怪了

难不成他是类似于某些软件一样,根据机器码来对访问者使用进行限制的吗?

▲某一机一码注册机

但你别说,经过阿虚反复测试,还真是这么一回事:电脑端换不同浏览器首次打开,是每个浏览器又再能使用 1 次,但后续这个浏览器换隐私模式再访问依旧会显示额度为 0

那难不成想免费使用就只能不断换浏览器吗???

实际上也不必,经过阿虚一阵研究,又被我独家发现了一个漏子可钻!

当你免费的 1 次额度用完之后,按F12打开浏览器的开发者模式,再右上角找到设备仿真功能,

接着我们在左边任选一个设备,比如 iPhone SE

保持不动,刷新一下网页,你就会网站的额度又从0变为1了,并且尽管是模拟的移动端访问,我们还是可以点击添加电脑文件进行使用的!

当然你可能会说设备仿真这里一列下来也就10多个设备,也不够用啊...

别担心,点击底部的设备一栏处的编辑,还有数十个模拟设备可供你添加选择,更甚至你可以点击添加自定义设备

只需要随便写一个设备名字,就可以在 Ambitious 网站那里算作一个新设备,轻松就能实现无限免费使用了

 

 

另外国外还有很多同类网站,但一些效果比较假或者需要需求上网才能使用,阿虚这里就不多加介绍了:

  • Make Scanned(效果比较假):https://makescanned.com/

  • OakPdf(需富强上网):https://oakpdf.com/

  • Make any PDF look like scanned(需富强上网):https://www.scanyourpdf.com/

  • Pdfdoctor(需富强上网):https://pdfdoctor.com/pdf-to-scanned-pdf

2


   

防止OCR

当然我知道,还有一部分人之所以想把PDF处理成扫描版,目的是想实现保护知识产权,避免内容轻松被被人复制

但如果你的目的真在于此,上述网站的作用可就微乎其微了!

在现有OCR强大的技术下,这点图像处理可谓丝毫不影响识别效果,只要别人想复制文件内容那都是轻轻松松的事情

像是简单的反色,倾斜、倒转、镜像、换字体实际上都不能防止OCR!要想有效又简单的实现反OCR,你可能需要专门的一些工具

而 Gituhb 上的反OCR项目其实挺多,阿虚下面简单推荐几个

2.1


  

anti-ocr-web

同时基于了 yuzu233/anti-ocr 和 BruceWind/Image-Anti-OCR 这两个反OCR项目,并对功能进行了整合:https://github.com/anti-ocr-web/anti-ocr-web.github.io

因为本身是一个网页项目,你可以按上图步骤将整个项目下载到本地,双击 index.html 文件来运行

也可以直接访问这个地址使用网页版:https://anti-ocr-web.github.io

网站可以根据文字生成反OCR图片,也可以直接在图片的基础上进行反OCR处理

将生成的图片用微信的腾讯OCR识别测试,可以看到反OCR效果相当之不错,几乎完全无法正确识别!

▲右边为识别结果

如果是上传图片进行处理(注:仅支持上传PNG格式文件),虽然字体大小、颜色那些没办法设置,但最后处理出来的反识别效果还是相当不错的,有大量的错字、错序存在,可以算作是识别结果完全不能用。要想获取内容只有自己挨着手打了

▲右边为识别结果

2.2


  

MadisonWirtanen/AntiOCR

和上面项目处理效果方式一样,就是用简单的 html 实现在图片上随机画点线以对抗文字识别,可调点线的大小,相当简单的一个项目:https://madisonwirtanen.github.io/AntiOCR/

不过相比其他一些项目的优点也是提供了网页版直接可以使用:https://madisonwirtanen.github.io/AntiOCR/

当然了,你也可以像上面上面说的一样,把项目的 html 文件下载到本地来运行使用。还有就是这个项目仅支持上传图片文件进行处理(注:仅支持上传PNG格式图片),不支持直接输入文字生成图片


2.3


  

msbltz/anti_ocr

另外这里还有一个差不太多的项目,不过想要使用依然是需要先将整个项目下载下来解压,再运行里面的 html 文件:https://github.com/msbltz/anti_ocr

▲这样下载项目

还是上传图片进行处理(注:同样仅支持上传PNG格式图片),上面是点+直线,这个项目唯一的区别就是点+弧线,就看你自己更喜欢哪种了,实际防止OCR效果是差不多的


2.4


  

ocr-bye

另外如果你是想根据文字生成反OCR图片,这里还有一个项目可以推荐:https://github.com/Leisurelybear/ocr-bye

缺点就是这个项目提供的 Demo 网页已经无法访问了,所以需要你像下图一样,将整个项目都下载下来

▲这样下载项目

然后呢,这个项目的处理方式又有些许不同,就是它不是对文字背景添加噪点,而是添加横格线和干扰线,再加上对文字随机旋转来实现反OCR

这样的好处就是生成的图片要显得干净许多,但同时反OCR的效果还是相当不错的!

▲右边为识别结果

 

 

不过,如果你想利用上述工具来实现PDF防止OCR,你只能先用一些PDF转换工具,把PDF每一页都转换为图片,再自己挨着一张张处理了(很可惜以上工具都没有批处理功能)

▲免费PDF转换工具见这篇文章

如果你想要批处理的话,阿虚提供一个思路:利用一些操作录制工具,录制一套操作,然后反复自动执行

比如你的操作就是:点击打开文件按钮 » 鼠标移动到列表最顶端 » 按Del删除图片 » 然后双击打开 » 回到网站点击处理图片 » 保存图片(自己好好想想这个流程,执行起来就可以实现自动化处理一个文件夹内所有图片了)

▲相关自动化软件见这篇文章

另外图片反OCR还有 2 个作用,也顺便提一下吧:

  1. 比如过一些平台的敏感词检测(比如发微博避免被夹)

  2. 亦或者想在微信等聊天时保护隐私(毕竟现在微信都轻松就能OCR出所发图片上的内容了)

不过关于上述 2 个用途,大家还是合理使用哈!

阿虚的问答社区,已经喜迎 200 位粉丝,30 多天就已产出 400+ 内容,欢迎大家加入~

星球激励机制、帖子标签、精华贴、栏目分类等内容正在逐步完善中,以后的重心将会在此,大家尽请期待

阿虚有着十多年的互联网经验,做公众号 6 年之久,回复了超 4W 条留言,各种疑难杂症或许我都能给出你意想不到的解决方案~

↕上下滑动查看更多↕



继续滑动看下一个
阿虚同学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存